掃盲:音質(zhì)的科學 圖片
此文為科普向,為了便于理解,減少專業(yè)詞匯的引入,會盡可能選取比較通俗、簡單的說法,但可能因此導致部分用詞不是完全準確。個人也可能有一些錯誤,歡迎指正。

首先要區(qū)分音質(zhì)和音效。對于播放設(shè)備和發(fā)聲單元來說,好音質(zhì)應(yīng)當是不論記錄下的聲音是否好聽,都要準確地還原音頻文件中記錄的聲音。對于錄音設(shè)備則是精確地將被記錄的聲音轉(zhuǎn)換為音頻文件。這是兩個獨立的部分,互相之間無法影響。音效則是通過軟件或者硬件上的調(diào)節(jié)讓我們從耳機中聽到的聲音變得好聽,這也是我認為音頻成為玄學的原因,因為每個人喜歡的音效是不一樣的。舉例來說,“膽機”的聲音很好聽,但它的好聽的原因是電子管放大器在運作過程中對音頻產(chǎn)生的一種特殊的失真,就音質(zhì)來說“膽機”是存在缺陷的,但音效上很不錯。
接下來談?wù)劼曇羰侨绾伪挥涗浀???茖W告訴我們,聲音本身是空氣的振動,如果我們把它圖像化的話就會得到一條連續(xù)的曲線。記錄聲音其實就是記錄這條曲線,最早的聲音記錄設(shè)備——留聲機,就是直接在物體上把這條曲線刻成一道高低變化的凹痕。而在計算機記錄音頻時,首先通過麥克風把空氣的振動轉(zhuǎn)化為電流的變化,電流的變化依舊是一條曲線。但要存儲到計算機的存儲器上時會面臨一個問題,計算機只認0和1,不認曲線,那么就要想辦法把這條曲線變成0和1。這里就要提到脈沖編碼調(diào)制(PCM),這是目前幾乎所有計算機音頻編碼的基礎(chǔ),幾乎所有常用格式的音頻,實質(zhì)上都是經(jīng)過改造、壓縮、包裝的PCM數(shù)據(jù)流,在播放音頻時,也會解碼成PCM的數(shù)據(jù)流后再交給聲卡去還原成電流信號。下面就講講PCM的原理。
第一步是取樣
在表示電壓變化的曲線上均勻地取樣,更準確地說是隔一個固定的時間記錄一次電壓的大小,音頻的采樣率就是指每秒鐘取樣的次數(shù),CD音頻的采樣率是44.1kHz,也就是每秒記錄44100次。至于為什么是這個數(shù)字,就要提到香農(nóng)-奈奎斯特采樣定理,根據(jù)這一定理,要不失真地記錄一定頻率以內(nèi)的信號,采樣率必須大于最高頻率的兩倍??茖W告訴我們,人耳能聽出的聲音最高頻率是20kHz,考慮部分人能聽得更高和方便音頻處理,CD的音頻采樣率就被定在44.1kHz,DVD的采樣率則是48kHz。實際生活中還存在低采樣率的應(yīng)用,比如我們電話通話時的音頻采樣率只有8kHz或者16kHz而已,因為這已經(jīng)覆蓋了人說話聲音的頻率,可以滿足人們通話的需求了,但大家都會感覺電話里的聲音和人直接說話的聲音有些不一樣。因此,Hi-Res等音樂音頻已經(jīng)開始進一步向上拓展采樣率,以提高音質(zhì)。
音頻取樣在錄音和播放時都會面臨一個問題,那就是如何準確地每隔一個固定的時間記錄或者提供一次電壓。這是一個計時的問題,有經(jīng)驗的人可能會發(fā)現(xiàn),如果一直不調(diào)節(jié)手表的時間,一年下來,會和準確的時間相差幾秒。對于日常生活來說一年差幾秒沒什么區(qū)別,但對每秒記錄數(shù)萬次的音頻來說,稍有不精確就會導致聲音的變化。目前電路中最常用的計時設(shè)備是石英晶體振蕩器,簡稱“晶振”,對特制的石英晶體通上一定范圍的電流后,它就會以一個特定的頻率振動,而這一振動又會引發(fā)電壓的變化,設(shè)備依據(jù)這一電壓的變化進行計時。晶振本身的會有一定的誤差,同時,這也是電對產(chǎn)生音頻影響的地方之一,不穩(wěn)定的電流會影響晶振的工作。晶振在電子設(shè)備中的應(yīng)用非常廣泛,對我們常用的電腦、手機來說,通常會有多個模塊共用一個晶振。而獨立聲卡等音頻設(shè)備會配備專門用于音頻的高精度晶振,甚至配備兩個晶振以應(yīng)對44.1kHz和48kHz兩個不成倍數(shù)關(guān)系的采樣率,而更高采樣率的音頻使用44.1或者48的倍數(shù)的采樣率的原因之一就是可以共用晶振。除了晶振之外,還有另一種更高精度計時設(shè)備——原子鐘,在一些高端音頻設(shè)備中,銣原子鐘已經(jīng)得到了應(yīng)用。
高采樣率的音頻還會記錄下樂器演奏過程中產(chǎn)生的超聲波,至于人能不能感覺到這些超聲波,從而提升聽感,那我覺得已經(jīng)進入玄學范疇了,我不做評論。當然前提是你的耳機能還原這些超聲波,這一點可以看耳機的頻率響應(yīng),順便一提Hi-Res認證對耳機的要求就是頻率響應(yīng)上限不低于40kHz。

192kHz的音頻可以記錄96kHz以內(nèi)的聲波(許多高解析音頻是專業(yè)音頻處理公司從CD級別的音頻處理出來的,效果上就見仁見智了)
第二步是量化
接下來還要對取到的樣本進行量化,直接記錄電流值的話,雖然每個樣本的數(shù)據(jù)量不大,但每秒有44100個樣本的話,還是得想辦法節(jié)約空間。方式就是把取到的電流值用一個計算機可以存儲的二進制數(shù)來表示,那么問題就是用多少位的二進制數(shù)來表示一個樣本,這就是音頻的采樣精度(又譯采樣深度、采樣位寬),CD音頻的采樣精度是16bit,也就是用16位的二進制數(shù)來表示每一個樣本,那么就可以表示2的16次方,也就是65536種不同的樣本,而24bit采樣精度則能表示16777216種不同的樣本。由于能表示的樣本的種類是有限,因此只能把取到的樣本記錄成能表示的樣本中與之最接近的,這一過程明顯會導致的音質(zhì)損失,這就是所謂的量化噪音,采樣精度的提升可以降低這種噪音。
最后把所有的數(shù)據(jù)連續(xù)排在一起,就形成了PCM數(shù)據(jù)流,這也是為何未經(jīng)壓縮的音頻每秒的數(shù)據(jù)量,也就是常說的碼率,是采樣率、采樣精度、聲道數(shù)之積。


可以畫張圖來直觀地表示這個過程,紅色為被記錄的點。
依靠圖片我們也可以很直觀地了解,采樣率和采樣精度的提升可以使被記錄的數(shù)據(jù)更接近原來的曲線,這也是為何Hi-Res音頻的音質(zhì)比CD高,這是科學,不是玄學。但無論如何,PCM記錄下的音頻都是一串不連續(xù)的變化的點,這也就是所謂的數(shù)碼感產(chǎn)生的原因。
PCM數(shù)據(jù)流在經(jīng)過各種不同的、有損或者無損的處理與壓縮,并進行包裝后,就變成了不同格式的音頻文件了。
音頻如何被還原
首先是將被壓縮過的音頻文件通過CPU解碼成PCM數(shù)據(jù)流。對于電腦來說,同時有多個軟件在運作,都可能要求發(fā)出某些聲音。而且這些聲音可能會使用不同的采樣率和采樣精度,這就會產(chǎn)生混亂,因此,現(xiàn)在操作系統(tǒng)會統(tǒng)一管理音頻,軟件將聲音交給操作系統(tǒng)的音頻接口,由操作系統(tǒng)將各軟件提供的聲音混合后統(tǒng)一采樣率和采用精度,形成新的PCM數(shù)據(jù)流再交給聲卡進行處理,這一過程中,非整數(shù)倍的采樣率轉(zhuǎn)換和高采樣率轉(zhuǎn)至低采樣率都會導致音質(zhì)的損失。如果要欣賞音樂的話,請選擇成音樂音頻的采樣率,以避免采樣率轉(zhuǎn)換造成的音質(zhì)損失。對于音質(zhì)要求更高的人,Windows7開始微軟引入了Wasapi,支持的軟件可以使用獨占模式來直接向聲卡提供PCM,徹底避免操作系統(tǒng)處理造成的音質(zhì)損失。

▲默認格式就是系統(tǒng)混合后的PCM的采樣率與位寬
PCM數(shù)據(jù)流被交給聲卡后,會使用數(shù)字模擬轉(zhuǎn)換器(Digital to analog converter,以下簡稱DAC)將其轉(zhuǎn)換成模擬信號,這部分通常也被稱為解碼器,基本就是錄音過程中量化和取樣反過來進行,不再重復說明。然后經(jīng)過放大器(Amplifier)提高電流(就當是提高音量好了),對于高阻抗耳機,放大器功率不足會導致音頻開到最大,聲音還是輕。優(yōu)(geng)秀(gui)的DAC和放大器能以更高的精度去還原音頻信號。在這一過程中,給DAC和放大器供電的電流如果存在不穩(wěn)定或者不足的話,會影響其工作,導致轉(zhuǎn)換、放大的精度受到影響,而越好的DAC和放大器通常對電的要求也越高,加上之前提到的晶振,導致音頻發(fā)燒友十分關(guān)注音頻設(shè)備的供電部分,最終產(chǎn)生了許多音質(zhì)和電的段子。
線材
除了電的段子,關(guān)于音頻線材的段子也是很多。金屬線是最常見的音頻信號傳輸媒介,線材的好壞很簡單,進入的電信號和出來的電信號要越接近越好。進出信號的差別通常源自源自于線材本身的電阻和外部的干擾。因此減少信號損失的方式是使用低電阻的金屬材料、應(yīng)用能減少干擾的線路設(shè)計、避免線材通過有電磁干擾的區(qū)域以及減少線材長度等。目前最常見的線材材料是銅,但銅的純度、生產(chǎn)工藝、粗細等使銅線的質(zhì)量差別很大。而銀的電阻雖然低于銅,但其價格和加工難度使其不能普及。 因此就產(chǎn)生了鍍銀銅線這樣的存在。
對于數(shù)字信號,其天生的抗干擾能力讓其對信號質(zhì)量的要求沒那么高,因此在DAC之前信號本身不會受什么影響,但攜帶信號的電流本身受影響產(chǎn)生的變化還是有可能影響DAC的運作,因此產(chǎn)生了音頻光纖。在DAC之后一直到發(fā)聲單元,音頻為模擬信號,這一段就沒法用光纖了只能使用高質(zhì)量(gui)的金屬線,但對大多數(shù)用戶來說,只要線材的質(zhì)量不要太爛或者進入強電磁干擾的區(qū)域,外部干擾通常不會產(chǎn)生能夠感覺到的影響。
還有一種思路就是把DAC等元件在發(fā)聲單元附近,極限地減少模擬信號的傳輸距離來減少音質(zhì)損失,但對耳機等小尺寸發(fā)生單元來說、這樣也會導致空間不足而無法布置高質(zhì)量的dac與放大器。
另一種的記錄方式
除了高于CD采樣率和采樣精度的PCM音頻外,還有一種音頻也被索尼歸為Hi-Res音頻。這種音頻的編碼模式被稱為直接比特流數(shù)字編碼(Direct Stream Digital,簡稱DSD),其記錄模式與PCM完全不同。首先其采樣率極高,即使最低的DSD64也有2.8224Mhz,是CD的64倍,其次,其采樣精度只有1bit,也就是每個采樣點不是1就是0。記錄原理大致是將每個樣本與上一個樣本比較,電壓高于上一個樣本就計1,低于上一個樣本或者不變就計0,當然實際的比較方式要更為復雜。因為正常的音樂音頻都是連續(xù)變化的曲線,只要采樣率夠高,就能在音頻文件體積得到控制的情況下比PCM更準確地記錄聲音,并減少低采樣率導致的數(shù)碼感。
雖然DSD很優(yōu)秀,但只有高端(gui)的DAC才能直接接受DSD數(shù)據(jù)流并將其還原,當然現(xiàn)在也有軟件可以將DSD實時轉(zhuǎn)換成PCM來播放,不過這樣就喪失DSD本身的特色了。



